Recent studies have shown that CLIP has achieved remarkable success in performing zero-shot inference while its fine-tuning performance is not satisfactory. In this paper, we identify that fine-tuning performance is significantly impacted by hyper-parameter choices. We examine various key hyper-parameters and empirically evaluate their impact in fine-tuning CLIP for classification tasks through a comprehensive study. We find that the fine-tuning performance of CLIP is substantially underestimated. Equipped with hyper-parameter refinement, we demonstrate CLIP itself is better or at least competitive in fine-tuning compared with large-scale supervised pre-training approaches or latest works that use CLIP as prediction targets in Masked Image Modeling. Specifically, CLIP ViT-Base/16 and CLIP ViT-Large/14 can achieve 85.7%,88.0% finetuning Top-1 accuracy on the ImageNet-1K dataset . These observations challenge the conventional conclusion that CLIP is not suitable for fine-tuning, and motivate us to rethink recently proposed improvements based on CLIP. We will release our code publicly at \url{https://github.com/LightDXY/FT-CLIP}.
translated by 谷歌翻译
如今,基础模型已成为人工智能中的基本基础设施之一,铺平了通往通用情报的方式。但是,现实提出了两个紧急挑战:现有的基础模型由英语社区主导;用户通常会获得有限的资源,因此不能总是使用基础模型。为了支持中文社区的发展,我们介绍了一个名为Fengshenbang的开源项目,该项目由认知计算与自然语言研究中心(CCNL)领导。我们的项目具有全面的功能,包括大型预培训模型,用户友好的API,基准,数据集等。我们将所有这些都包装在三个子项目中:风水次模型,风水框架和狂热基准。 Fengshenbang的开源路线图旨在重新评估中国预培训的大型大型模型的开源社区,促使整个中国大型模型社区的发展。我们还希望构建一个以用户为中心的开源生态系统,以允许个人访问所需的模型以匹配其计算资源。此外,我们邀请公司,大学和研究机构与我们合作建立大型开源模型的生态系统。我们希望这个项目将成为中国认知情报的基础。
translated by 谷歌翻译
本文提出了一个简单而有效的框架蒙版,该框架将新提出的掩盖自distillation纳入对比的语言图像预处理中。掩盖自distillation的核心思想是将表示从完整的图像提取到蒙版图像预测的表示形式。这种合并享有两个重要的好处。首先,掩盖的自我验证目标是本地贴片表示学习,这与视觉对比度的互补,专注于与文本相关的表示。二,掩盖的自我验证也与视觉语言对比符合训练目标的视野对比是一致的。视觉编码器用于功能对齐,因此能够学习本地语义从该语言中获得间接监督。我们提供了专门设计的实验,并进行了全面的分析,以验证这两个好处。从经验上讲,我们表明,当MaskClip应用于各种具有挑战性的下游任务时,可以在线性探测,填充和零拍摄中取得卓越的结果,并在语言编码器的指导下取得了卓越的结果。
translated by 谷歌翻译
我们提出了引导蒙面的自动编码器(bootmae),这是一种新的视觉BERT预训练方法。 Bootmae用两个核心设计改进了原始的蒙版自动编码器(MAE):1)动量编码器,该动量编码器可作为额外的BERT预测目标提供在线功能; 2)试图降低编码器的压力以记住目标特定信息的靶向解码器。第一个设计的动机是通过观察到的,即使用预定的MAE提取特征,因为掩盖令牌的BERT预测目标可以实现更好的预训练性能。因此,我们与原始的MAE编码器并行添加了一个动量编码器,该编码器通过将其自己的表示作为BERT预测目标来引导预处理性能。在第二个设计中,我们将特定于目标的信息(例如,未掩盖贴片的像素值)直接传达到解码器中,以减少记住目标特定信息的编码器的压力。因此,编码器专注于语义建模,这是BERT预训练的目的,并且不需要浪费其在记住与预测目标相关的未掩盖令牌的信息时的能力。通过广泛的实验,我们的Bootmae在ImageNet-1k上获得了$ 84.2 \%$ $ $ $+0.8 \%$在同一预训练时期。 Bootmae还获得了$+1.0 $ MIOU在ADE20K上的语义细分和$+1.3 $ box ap,$+1.4 $+1.4 $ bask ap改进对象检测和可可数据集上的细分。代码在https://github.com/lightdxy/bootmae上发布。
translated by 谷歌翻译
边缘计算广泛用于视频分析。为了减轻准确性和成本之间的固有张力,已经提出了各种视频分析管道,以优化GPU在边缘节点上的使用。但是,我们发现,由于视频内容的变化,在管道的不同位置的视频内容变化,亚次采样和过滤,因此为边缘节点提供的GPU计算资源通常被低估了。与模型和管道优化相反,在这项工作中,我们使用非确定性和分散的闲置GPU资源研究了机会数据增强的问题。具体而言,我们提出了一个特定于任务的歧视和增强模块以及一种模型感知的对抗性训练机制,提供了一种以准确有效的方式识别和转换特定于视频管道的低质量图像的方法。在延迟和GPU资源限制下,进一步开发了多个EXIT模型结构和资源感知调度程序,以做出在线增强决策和细粒度的执行。多个视频分析管道和数据集的实验表明,通过明智地分配少量的空闲资源,这些框架上倾向于通过增强而产生更大的边际收益,我们的系统将DNN对象检测准确性提高了7.3-11.3 \%,而不会产生任何潜行成本。
translated by 谷歌翻译
使用神经网络代表3D对象已变得流行。但是,许多以前的作品采用具有固定体系结构和大小的神经网络来表示不同的3D对象,这导致简单对象的网络参数过多,并且对复杂对象的重建精度有限。对于每个3D模型,希望拥有尽可能少的参数以实现高保真重建的端到端神经网络。在本文中,我们提出了一种利用神经体系结构搜索(NAS)和二进制分类的高效体素重建方法。以层数,每一层的节点数量以及每一层的激活函数为搜索空间,可以根据强化学习技术获得特定的网络体系结构。此外,为了摆脱网络推理后使用的传统表面重建算法(例如,行进立方体),我们通过对二进制体素进行分类来完成端到端网络。与其他签名的距离字段(SDF)预测或二进制分类网络相比,我们的方法使用更少的网络参数获得了更高的重建精度。
translated by 谷歌翻译
最近,通过深度学习框架提取动态系统的数据驱动法则在各个领域都引起了很多关注。此外,越来越多的研究工作倾向于将确定性动力学系统转移到随机动力学系统上,尤其是由非高斯乘法噪声驱动的系统。但是,对于高斯病例,许多基于原木样式的算法不能直接扩展到非高斯场景,这些场景可能存在很高的错误和低收敛问题。在这项工作中,我们克服了其中的一些挑战,并确定由$ \ alpha $稳定的l \'evy噪声驱动的随机动力系统,仅来自随机的成对数据。我们的创新包括:(1)设计一种深度学习方法,以学习l \'evy诱发的噪声的漂移和扩散系数,并在所有值中使用$ \ alpha $,(2)学习复杂的乘法噪声,而无需限制小噪声强度,(( 3)在一般输入数据假设下,即随机系统识别的端到端完整框架,即$ \ alpha $稳定的随机变量。最后,数值实验和与非本地KRAMERS-MOYAL公式与力矩生成功能的比较证实了我们方法的有效性。
translated by 谷歌翻译
如何学习一个促进所有面部分析任务的通用面部表示?本文对此目标进行了一步。在本文中,我们研究了面对面分析任务的预先训练模型的转移性能,并以视语言方式为一般面部代表学习学习的框架,称为Farl。一方面,该框架涉及从图像文本对学习高级语义含义的对比损失。另一方面,我们提出通过添加掩蔽图像建模来同时探索低级信息以进一步增强面部表示。我们对Laion-face进行预训练,一个包含大量面部图像文本对的数据集,并评估在多个下游任务上的表示功能。我们表明Farl与以前的预先训练的模型相比,Farl实现了更好的转移性能。我们还验证了低数据制度的优势。更重要的是,我们的模型在面部分析任务上超越了最先进的方法,包括面部解析和面部对齐。
translated by 谷歌翻译
随着现代深层学习技术的快速发展,动态系统和神经网络的研究越来越多地利用了很多不同的方式。由于在现实世界观察中经常出现不确定性,因此SDES(随机微分方程)来发挥重要作用。更具体地,在本文中,我们使用配备神经网络的SDE集合来预测具有大跳跃性能和高概率分布偏移的嘈杂时间序列的长期趋势。我们的贡献是,首先,我们使用相位空间重建方法来提取时间序列数据的内在尺寸,以确定我们预测模型的输入结构。其次,我们探索由$ \ alpha $ -stable l \'evy motion驱动的SDE来模拟时间序列数据,通过神经网络近似来解决问题。第三,我们构建了达到多时间步长预测的注意机制。最后,我们通过将其应用于股票营销时间序列预测并显示结果优于几个基线深度学习模型来说明我们的方法。
translated by 谷歌翻译
本文探讨了贝尔视觉变压器预训练的更好的码本。最近的工作成功地转移了从NLP到视野领域的BERT预训练。它直接采用一个简单的离散VAE作为视觉销售器,但尚未考虑由此产生的视觉令牌的语义水平。相比之下,NLP字段中的离散令牌是自然的高度语义。这种差异激励我们学习一个感知码本。我们惊奇地找到了一个简单而有效的想法:在DVAE训练期间强制执行感知相似性。我们证明,所提出的感知码本生成的视觉令牌确实表现出更好的语义含义,随后有助于预训练在各种下游任务中实现卓越的转移性能。例如,我们在Imagenet-1K上实现了84.5前1个精度,vit-B骨干,优于竞争方法Beit +1.3,具有相同的训练纪元。它还可以通过+1.3框AP和+1.0掩模AP,在ADE20K上的语义细分,在ADE20K上提高对象检测和分割任务的性能,+1.0 miou,代码和型号将在\ url {https:// github.com/microsoft/peco}。
translated by 谷歌翻译